智能论文笔记

Towards Using Fully Observable Policies for POMDPs

András Attila Sulyok , Kristóf Karacs

分类：机器学习 | 人工智能

2022-07-24

部分可观察到的马尔可夫决策过程（POMDP）是适用于许多现实世界问题的框架。在这项工作中，我们提出了一种方法，通过依靠解决完全可观察的版本的策略来解决具有多模式信念的POMDP。通过deleinig，基于完全可观察到的变体的值函数的新的混合价值函数，我们可以使用相应的贪婪策略来求解POMDP本身。我们开发了讨论所需的数学框架，并引入了基于侦察盲tictactoe的任务的基准。在此基准测试中，我们表明我们的政策优于政策，而忽略了多种模式的存在。

translated by 谷歌翻译

相关文章
笔记